package _caolihua;

import java.util.Set;

public interface NewsAnalyser {
	
	/**
	 * 
	 * @param detailurl 详情url
	 * @return 解析新闻详情页得到实体
	 */
	public  abstract NewsDocument getNewsDocument(String detailurl);
	
	/**
	 * 
	 * @return 获取新闻详情页规则URL
	 */
	public  abstract Set<String>getLevel1URLs(String indexURL);
	
	/**
	 * 
	 * @param url 
	 * @return 判定是否是详情页:1-是，0-不是
	 */
	public  boolean isDetailPage(String url);
	
	/**
	 * 
	 * @param url
	 * @return 获取一网页的所有url
	 */
	public  Set<String>getAllURLs(String url);
	
	/**
	 * 
	 * @param allUrls 一个网页所有url
	 * @return 过滤后的详情页url集合
	 */
	public  Set<String>getDetailURLS(Set<String> allUrls);
}
